iT邦幫忙

2023 iThome 鐵人賽

DAY 5
0

創建DataFrame

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)

data = [{'Name': 'Alice', 'Age': 25}, {'Name': 'Bob', 'Age': 30}, {'Name': 'Charlie', 'Age': 35}]
df = pd.DataFrame(data)

df = pd.read_csv('data.csv')
df = pd.read_excel('data.xlsx')

選擇特定的列或行:

# 選擇特定的列
df['列名']

# 選擇多列
df[['列名1', '列名2']]

# 選擇特定的行(索引為0的行)
df.loc[0]

# 選擇多行(索引為0和1的行)
df.loc[[0, 1]]

篩選資料:

# 篩選符合條件的行
df[df['列名'] > 25]

# 使用多個條件進行篩選
df[(df['列名1'] > 25) & (df['列名2'] < 30)]
排序資料:
python
Copy code
# 按照特定列進行升序排序
df.sort_values(by='列名', ascending=True)

# 按照特定列進行降序排序
df.sort_values(by='列名', ascending=False)

統計資料:

# 計算某列的平均值
df['列名'].mean()

# 計算某列的總和
df['列名'].sum()

# 獲取描述性統計資訊
df.describe()

分組和聚合:

# 按照某列的值進行分組,並計算每組的平均值
df.groupby('分組的列名')['需要聚合的列名'].mean()

# 同時計算多個聚合函數
df.groupby('分組的列名')['需要聚合的列名'].agg(['mean', 'sum'])

合併和連接:

# 合併兩個DataFrame,根據特定的列
merged_df = pd.merge(df1, df2, on='共同的列名', how='inner')

# 將兩個DataFrame按照索引進行合併
merged_df = df1.join(df2, how='inner')

遺失值處理:

# 刪除包含遺失值的行
df.dropna()

# 將遺失值填充為特定的值
df.fillna(value)

進一步的數據視覺化:

import matplotlib.pyplot as plt

# 繪製直方圖
df['列名'].hist()

# 繪製散點圖
plt.scatter(df['列名1'], df['列名2'])

上一篇
DAY 4 「Python資料結構」列表List、字典Dic、矩陣(向量)NumPy、表格(DataFrame)Pandas建立資料王國
下一篇
DAY 6 「快速排序(Quick Sort)」Python分治法(Divide and Conquer)演算法的最開端~
系列文
30天快速打造Python資料結構&演算法邏輯刷爆LeetCode30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言